Item Response Theory

Современная теория тестирования (англ. Item Response Theory) — (иногда по-русски — Современная теория тестов, Теория ответов на задания, Теория моделирования и параметризации педагогических тестов) набор методов, позволяющий оценить вероятность правильного ответа испытуемых на задания различной трудности. Она используется для того чтобы избавиться от плохих (неинформативных) вопросов в опроснике, оценки взаимосвязи латентных конструктов между собой и с наблюдаемыми переменными, оптимизации предъявления заданий респондентам, и т. д. В русском языке название Item Response Theory переводится различным образом. Ю.Нейман и В.Хлебников предлагают называть её «Теория моделирования и параметризации педагогических тестов» (ТМППТ)[1]. В.Аванесов — «Математико-статистическая теория оценки латентных параметров заданий теста и уровня подготовленности испытуемых»[2]. Однако одним из наиболее удачных способов перевода является «современная теория тестирования», поскольку её модели описывают не тестовые задания и не тест сам по себе, а результат (а многие современные модели — и процесс) взаимодействия респондентов и заданий.

В психометрике современная теория тестирования (IRT) является парадигмой для проектирования, анализа и оценки тестов, опросников и подобных измерительных инструментов. Эта теория тестирования предполагает, что существует взаимосвязь между модельной предсказуемостью ответов на задание и общим качеством знания. Для того, чтобы оценить целевые параметры заданий и респондентов используются различные статистические модели[3]. В отличие от более простых альтернатив для создания шкал и оценки ответов на опросники, современная теория тестирования не предполагает, что каждый вопрос одинаково трудный. Это отличает IRT от, например, предположения Ликерта в шкалировании о том, что «все задания считаются репликациями друг друга или другими словами: задания считаются взаимозаменяемыми»[4]. Напротив, современная теория тестирования рассматривает параметры каждого задания (задающие ICC (Item Characteristic Curve) — характеристическую кривую задания) как информацию, которая должна быть включена в калибровку модели.

Таким образом, IRT моделирует вероятность ответа каждого респондента на каждое задание теста. Фундаментальной характеристикой современной теории тестирования и ключевым её определением является идея разделения параметров респондентов и заданий. То есть, вероятность правильного ответа на задание является результатом взаимодействия латентных параметров респондента и задания. Конкретный способ их взаимодействия определяется допущениями исследователя и транслируется в уравнение конкретной математической функции — модели современной теории тестирования.

Модели современной теории тестирования тесно связаны с конфирматорным факторным анализом, обобщенными линейными моделями смешанных эффектов, сетевыми моделями из статистической физики (полями Маркова и моделью Изинга), и отдельными методами наук о данных (модельными методами коллаборативной фильтрации и ограниченными машинами Больцмана). Современные модели IRT позволяют моделировать новые источники информации (например, время ответов, попытки решения заданий); комплексные нелинейные (например, потолочные) зависимости между различными латентными переменными; моделировать эффекты рейтеров, которые начисляют баллы за открытые ответы (и позволяют достигать инвариантности итоговых оценок способности относительно рейтера); моделировать композитные и многомерные конструкты; моделировать изменения в уровне латентной переменной во времени; использовать дискретные оценки способности, превращающие модель ранжирования в классификатор, и т. д. На сегодняшний день, IRT — одна из самых передовых и теоретически обоснованных областей вычислительных наук о поведении.

  1. Нейман Ю. М., Хлебников В. А. Введение в теорию моделирования и параметризации педагогических тестов. -М.: Прометей, −169 с. Архивированная копия. Дата обращения: 3 июня 2017. Архивировано 4 июня 2017 года.
  2. Аванесов В. С. Применение тестовых форм в Rasch Measurement // Педагогические измерения, 2005, № 4. -С.3-20. Архивированная копия. Дата обращения: 3 июня 2017. Архивировано 4 июня 2017 года.
  3. National Council on Measurement in Education http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorI Архивная копия от 22 июля 2017 на Wayback Machine
  4. A. van Alphen, R. Halfens, A. Hasman and T. Imbos. (1994). Likert or Rasch? Nothing is more applicable than good theory. Journal of Advanced Nursing. 20, 196—201

© MMXXIII Rich X Search. We shall prevail. All rights reserved. Rich X Search